#conversaciones adversariales

THRD: Defensa sin entrenamiento para ataques multi-turno en LLMs

Descubre THRD, el primer marco sin entrenamiento que detecta ataques multi-turno en LLMs analizando riesgo acumulativo. Reduce éxito de ataques a menos del 4%.

2026-06-02 · 2 min